DataFrame

1.1 DataFrame是什么

  • DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。

1.2 DataFrame和RDD的区别

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0PH9hGCO-1655396298057)(assets/1653400255144.png)]

  • 上图直观地体现了DataFrame和RDD的区别。

  • DataFrame是基于RDD之上的分布式数据集,给予Schema信息。

    • 左边:RDD -> 数据外在类型:Person(CaseClass),内部结构不知道
    • 右边:DataFrame -> 数据内部结构,全部知道,包含字段名称和字段类型,但是不知道外部类型,Row类型(弱类型)

    DataFrame = RDD[Row] + Schema

1.2 RDD与DataFrame性能

  • Spark SQL性能上比RDD要高。因为Spark SQL了解数据内部结构,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观RDD,由于无从得知所存数据元素的具体内部结构,Spark Core只能在Stage层面进行简单、通用的流水线优化。

文章链接: https://www.mfisp.com/13161.html

文章标题:DataFrame

文章版权:梦飞科技所发布的内容,部分为原创文章,转载请注明来源,网络转载文章如有侵权请联系我们!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

点点赞赏,手留余香

给TA打赏
共0人
还没有人赞赏,快来当第一个赞赏的人吧!
    建站教程投稿分享运维技术

    简单的高精度除以高精度

    2022-11-24 23:35:29

    建站教程投稿分享

    spark SQL编程

    2022-11-24 23:42:39

    0 条回复 A文章作者 M管理员
    如果喜欢,请评论一下~
    欢迎您,新朋友,感谢参与互动!
      暂无讨论,说说你的看法吧
    个人中心
    购物车
    优惠劵
    今日签到
    私信列表
    搜索

    梦飞科技 - 最新云主机促销服务器租用优惠

    可以介绍下你们的服务器产品么

    云服务器你们是怎么收费的呢

    租用vps现在有优惠活动吗